Análise exploratória de dados do Spotify sobre os álbuns e músicas de Jackson do Pandeiro Streaming. Os dados originais e as variáveis vêm deste repositorio . A explicação de como os dados foram gerados está disponível na documentação da API do Spotify.
Na análise abaixo foi possível perceber:
data <- read_csv(here::here("data/jackson.csv"),
col_types = cols(
.default = col_double(),
album_uri = col_character(),
album_name = col_character(),
album_img = col_character(),
album_release_date = col_character(),
album_release_year = col_date(format = ""),
album_popularity = col_integer(),
track_name = col_character(),
track_uri = col_character(),
key = col_character(),
mode = col_character(),
time_signature = col_integer(),
key_mode = col_character(),
track_popularity = col_integer()
)) %>%
mutate(album_name = gsub(".*(1954).*",
"The Music of Brazil/Jackson do Pandeiro",
album_name));
data %>%
glimpse()
## Observations: 500
## Variables: 23
## $ album_uri <chr> "5T9tTjPIfjbUJGRJdYOOLl", "5T9tTjPIfjbUJGRJ...
## $ album_name <chr> "Jackson Do Pandeiro Volume 1: Tum, Tum, Tu...
## $ album_img <chr> "https://i.scdn.co/image/5dcc4a0cad740f1ee0...
## $ album_release_date <chr> "1958-11-11", "1958-11-11", "1958-11-11", "...
## $ album_release_year <date> 1958-11-11, 1958-11-11, 1958-11-11, 1958-1...
## $ album_popularity <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0...
## $ track_name <chr> "Tum, Tum, Tum", "Pacífico Pacato", "Nortis...
## $ track_uri <chr> "6cCYhV6fU68uzbjWPG9V7x", "6Gu7y9SgtVTGh8YG...
## $ danceability <dbl> 0.501, 0.663, 0.550, 0.447, 0.544, 0.571, 0...
## $ energy <dbl> 0.987, 0.962, 0.947, 0.969, 0.972, 0.926, 0...
## $ key <chr> "A", "F", "D", "G", "E", "F", "E", "C", "F"...
## $ loudness <dbl> 2.561, 1.137, 1.621, 2.743, 2.513, 2.414, 2...
## $ mode <chr> "major", "major", "major", "major", "minor"...
## $ speechiness <dbl> 0.0429, 0.1810, 0.0469, 0.0549, 0.0502, 0.0...
## $ acousticness <dbl> 0.718, 0.738, 0.666, 0.759, 0.787, 0.651, 0...
## $ instrumentalness <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0...
## $ liveness <dbl> 0.282, 0.200, 0.251, 0.333, 0.176, 0.342, 0...
## $ valence <dbl> 0.963, 0.961, 0.923, 0.899, 0.783, 0.961, 0...
## $ tempo <dbl> 101.676, 113.562, 116.125, 116.023, 112.863...
## $ duration_ms <dbl> 158133, 139773, 163173, 143733, 151653, 157...
## $ time_signature <int> 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4...
## $ key_mode <chr> "A major", "F major", "D major", "G major",...
## $ track_popularity <int> 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0...
data %>%
ggplot(aes(sample=danceability)) +
stat_qq()
hchart (data$danceability,
color = "#B71C1C",
name = "Dançabilidade")
data %>%
ggplot(aes(sample=speechiness)) +
stat_qq()
hchart (data$speechiness,
color = "#B71C1C",
name = "Verbosidade")
data <- data %>%
mutate(duration_s = duration_ms/1000)
data %>%
select(duration_s) %>%
glimpse()
## Observations: 500
## Variables: 1
## $ duration_s <dbl> 158.133, 139.773, 163.173, 143.733, 151.653, 157.48...
data %>%
ggplot(aes(sample=duration_s)) +
stat_qq()
hchart (data$duration_s,
color = "#B71C1C",
name = "Duração (s)")
data <- data %>%
mutate(remaster = album_release_date > "1981-30-12")
data %>%
select(album_name, album_release_year, remaster) %>%
sample_n(10)
temp <- data %>%
distinct(album_name,
.keep_all = TRUE) %>%
mutate(remaster = ifelse(remaster == TRUE,"remasterizado","original"))
hchart(temp$remaster,
colorByPoint = TRUE,
name="Álbum")
temp <-
data %>%
distinct(album_name, .keep_all = TRUE) %>%
group_by(album_release_year) %>%
summarise(original_n = sum(!remaster),
remaster_n = sum(remaster))
highchart() %>%
hc_xAxis(categories = temp$album_release_year) %>%
hc_add_series(temp$original_n,
type = "column",
color = "#B71C1C",
name = "Não remasterizado") %>%
hc_add_series(temp$remaster_n,
type = "column",
name = "Remasterizado") %>%
hc_title(text = "Número de álbuns por ano")
p <- data %>%
distinct(track_name, .keep_all = TRUE) %>%
ggplot(aes(x=speechiness,
y=danceability)) +
geom_point(alpha=0.4)
ggplotly(p)
Não parece haver uma relação clara entre a dançabilidade das músicas de Jackson e a verbosidade de suas músicas. Temos muitas faixas de diferente grau de dançabilidade de mesmo grau baixo de verbosidade.
Quando aumentamos a verbosidade das músicas (mais à direita no eixo) a dançabilidade se mantém relativamente estável (O aumento na dançabilidade é marginal).
data %>%
distinct(track_name, .keep_all = TRUE) %>%
ggplot(aes(speechiness,danceability)) +
stat_density2d(aes(fill = ..level..), geom = "polygon") +
scale_x_continuous(breaks = seq(0,1,0.01))
É possível ver mais claramente que o ponto de maior ocorrência (cume ou ponto de level mais alto) é em em torno de 0.7 de dançabilidade e de aproximadamente 0.04 (valores muito baixo de verbosidade).
Isso implica em algo já esperado, Jackson não precisa falar muito pra tornar suas músicas dançantes, não é a toa que Jackson ganhou a alcunha de Rei do Ritmo.
m <- list(
l =70,
b = 150)
p <- data %>%
ggplot(aes(x=as.factor(album_release_year),
duration_s,
group=album_release_year,
color=remaster)) +
geom_boxplot(position = "dodge", alpha=0.6) +
theme(axis.text.x = element_text(angle = 30, hjust = 1))
ggplotly(p) %>%
layout(autosize = F, margin=m)
Olhando para os álbuns originais (remaster = FALSE) é possível perceber um grande aumento no tempo de duração das músicas no álbum em 1967 seguido de uma diminuição no álbum seguinte 1968. Esse choque no perfil dos dois álbuns requer uma explicação que não está nos dados.
O álbum de 1967 A Braza do Norte, primeiro gravado na gravadora Cantagalo marca também um momento especial na vida do cantor, pois esse é o ano de seu divórcio de Almira, parceira na música e esposa. De músicas mais longas e de faixas de letra mais triste como “Passarinho abandonado” composta pelo próprio Jackson, esse perfil incomum do álbum acaba por refletir esse momento da vida do cantor.
O álbum de 1968 por outro lado é uma coletânea e reúne algumas das músicas até então mais populares (e tambpem curtas do cantor). Essa coletânea casa com um inaudito porém curto hiato do cantor que pela primeira vez passa um ano sem publicar um álbum, o qual pode ser atribuído ao seu divórcio.
# lollipop chart
m <- list(
l = 370)
p <- data %>%
ggplot(aes(album_popularity,y=reorder(album_name,album_popularity),
color=remaster,
group=remaster)) +
geom_segment(aes(x = 0, y = reorder(album_name,album_popularity),
xend = album_popularity,
yend = album_name)) +
geom_point() +
theme(axis.title.y=element_blank())
ggplotly(p,tooltip=NA) %>%
layout(autosize = F,
margin = m)
Fica evidente que para Jackson do Pandeiro os álbuns remasterizados/relançados dominam o cenário do Spotify em termos de popularidade. Primeiramente, simplesmente observando a proporção entre remasterizados e não remasterizados fica evidente que os primeiros são os que o Spotify mais disponibiliza. Segundo, levando em consideração a questão de qualidade de áudio era de se esperar que os remasterizados tomassem a dianteira.
tim12equal = c("#00008F", "#0000EA", "#0047FF", "#00A2FF", "#00FEFF", "#5AFFA5", "#B5FF4A", "#FFED00", "#FF9200", "#FF3700", "#DB0000", "#800000")
m <- list(
l=80,
r=30);
p <- data %>%
select(key,album_release_date, remaster) %>%
group_by(album_release_date,key,remaster) %>%
summarise(count = n()) %>%
mutate(prop = count/sum(count)) %>%
ungroup() %>%
ggplot(aes(x = factor(album_release_date),
y = count, fill = key,
text = paste(
"Proporção:", count * 10,"%"
))) +
geom_bar(stat = "identity", position = "fill", width = .7) +
scale_y_continuous(labels = scales::percent) +
scale_fill_manual(values = tim12equal) +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
theme(axis.title.x=element_blank(),
axis.title.y=element_blank()) +
facet_grid(remaster ~ .) +
ggtitle("Notas musicais (distinção por remasterização)") +
guides(fill=guide_legend(title=""))
ggplotly(p, tooltip="text") %>%
layout(autosize = F,
margin = m,
legend = list(
orientation = "h", y =-0.2
))